04. 实现

实现:MC 预测(状态值)

你可以在下方找到(首次经历)MC 预测(状态值)的伪代码。( 你可以选择实现首次经历或所有经历 MC 方法。在二十一点游戏中,首次经历和所有经历方法返回的结果一样。

如果你想详细了解首次经历和所有经历 MC 方法之间的区别,建议你阅读 此论文 的第 3 部分。结果在第 3.6 部分进行了总结。作者指出:

  • 所有经历 MC 存在 偏差 ,而首次经历 MC 不存在偏差(请参阅 Theorems 6 和 7)。
  • 一开始,所有经历 MC 具有更低的 均方误差 (MSE) ,但是随着经历更多的阶段,首次经历 MC 的均方误差更低(请参阅 Corollary 9a 和 10a,以及图 4)。

当每个状态的经历次数接近无穷大时,首次经历和所有经历方法都 保证会收敛于 真值函数。( 换句话说,只要智能体在每个状态获取足够的经验,值函数估值将非常接近真值。 )对于首次经历 MC,收敛性遵守 大数定律 ,详情请参阅该 教科书 的第 5.1 部分。

请在下个部分完成 Monte_Carlo.ipynb 第 0 部分:探索 BlackjackEnv 第 1 部分:MC 预测:状态值 。请记得保存内容!

你可以查看 Monte_Carlo_Solution.ipynb 的相应部分,检查你的解决方案是否正确。